Classification de documents Amélioration de la co-similarité pour la classification de documents

نویسندگان

  • Clément Grimal
  • Gilles Bisson
چکیده

La classification conjointe d’objets et de leur descripteurs – par exemple de documents avec les mots les composant – encore appelée co-classification, a été largement étudiée ces dernières années, car elle permet d’extraire des classes plus pertinents, qu’elle soit explicite ou latente. Dans de précédents travaux (Bisson & Hussain, 2008), nous avons proposé une méthode de calcul simultané des matrice de similarité entre objets et entre descripteurs, chacune étant construite à partir de l’autre. Nous proposons ici une généralisation de cette approche en introduisant une pseudo-norme et un algorithme de seuillage. Nos expérimentations mettent en évidence une amélioration significative de la classification, notamment par rapport à d’autres méthodes. Mots-clés : co-clustering, similarity measure, text mining

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Using a co-similarity approach on a large scale text categorization task

This paper presents a framework we developed for the second Large Scale Hierarchical Text Categorization challenge LSHTC2 . The main idea is to propose a method allowing to deal with the terms variability among the categories in order to be able to find similarities between collections of documents belonging to the same category but having few common terms. Thus, we used a co-similarity based a...

متن کامل

Classification Automatique Non supervisée de Documents Textuels basés sur Wordnet

Mettre en œuvre l’une des méthodes de classification non supervisée consiste en premier lieu à choisir une manière de représenter les documents (Sebastiani, 2002) ; dans un second temps il faut choisir une mesure de similarité, et en dernier lieu choisir un algorithme de classification que l'on va mettre au point à partir des descripteurs et de la métrique choisis. Tout document dj sera transfo...

متن کامل

La Classification non Supervisée (Clustering) de Documents Textuels par les Automates Cellulaires

Résumé : Dans cet article nous présentons un automate cellulaire (Class_AC) pour résoudre un problème de text mining en l’occurrence la classification non supervisée (Clustering). Avant de procéder à l’expérimentation par l’automate cellulaire, nous avons vectorisés nos données en procédant à l’indexation des documents textuels provenant de la base de donnée REUTERS 21578 par l’approche Wordnet...

متن کامل

Expériences de classification d'une collection de documents XML de structure homogène

Résumé. Cet article présente différentes expériences de classification de documents XML de structure homogène, en vue d’expliquer et de valider une présentation organisationnelle pré-existante. Le problème concerne le choix des éléments et mots utilisés pour la classification et son impact sur la typologie induite. Pour cela nous combinons une sélection structurelle basée sur la nature des élém...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2012